蒸馏出明确的思想推理路径已成为提高各种任务中大语言模型(LLM)的推理能力的有效方法。但是,当解决对最先进模型构成重大挑战的复杂任务时,这种技术通常会努力产生有效的思想链,从而导致正确的答案。在这项工作中,我们提出了一种新颖的方法,通过利用其解释解决方案的能力来使LLM的推理能力蒸馏出来。我们将我们的方法应用于解决竞争级别的编程挑战。更具体地说,我们采用LLM来生成一组<问题,解决方案程序>对的解释,然后使用<问题,解释>对微调一个较小的语言模型,我们将其称为推理者,以学习算法的推理,可以为不可见的问题而引起“ how to sands do sange”“ how to sone do sands to node sange de sange de sange dece de sange dece deblese dey dece dey deceens corey of deceens corage''。我们的实验表明,从解释中学习使推理者能够更有效地指导编码人员的计划实施,从而使求解速率高于强大的对竞争级别编程问题的经过深思熟虑的基线。它还优于直接从<问题,解决方案程序>对学习的模型。我们以CodeContests格式策划了一个额外的测试集,其中包括246个在模型知识截止后发布的最新问题。
主要关键词